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摘要 : [目的 /意义 ] 在 基于 社会 网 络 的 用 户 和 画像 研究 中 ,针对 传统 用 户 建 模 难 以 处 理 复 杂 网 络 关系 ,群体 
构建 多 基于 内 容 , 以 及 群体 相似 度 低 或 紧密 性 差 的 问题 ,提出 基于 网 络 结构 和 文本 内 容 的 群体 画像 构建 方法 。 
[方法 /过 程 ] 首先 ,采用 卷 积 神经 网 络 方法 ,融合 网 络 结 构 和 文本 内 容 两 方面 特征 将 网 络 用 户 表 示 成 空间 向 
量 ,其 次 ,在 k-means 算法 基础 上 结合 模块 度 计 算 方 法 ,对 空间 向 量 进行 聚 类 ,然后 ,在 爬 取 的 中 英文 数据 集 上 分 
别 进行 对 比 研究 ,最 后 ,从 中 文 数据 集中 选取 1 000 名 重要 性 用 户 进行 实例 分 析 。[ 结果 /结论 ] 实验 结果 表明 ， 
该 方法 的 窗 度 值 比 基 于 内 容 的 方法 平均 增加 0. 105 , 粒 值 比 基 于 结构 ( 含 基 于 结构 和 内 容 ) 的 方法 平均 减少 


0. 955 ,实例 分 析 进 一 步 说 明文 中 方法 的 可 行 性 。 
三 关键 词 : 社会 网 络 “网络 关系 文本 内 容 
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深度 学 习 ” 聚 类 算法 用 户 画 像 


、“ 互 联网 时 代 , 人 们 每 天 都 会 接触 各 种 各 样 的 网 络 


等 ”从 语义 角度 出 发 ,根据 用 户 发 布 的 文本 信息 检测 


于 合 , 在 这 些 平台 上 可 以 关注 感 兴趣 的 话题 ,浏览 喜欢 


的 阅 容 ,或 者 通过 添加 好 友 结 交 朋 友 通过 关注 获得 粉 
丝 多 ,用户 通 过 这 些 行为 与 他 人 建立 联系 ,就 如 同 在 现 
壬 并 活 中 一 样 ,这 种 联系 也 会 因 朋友 关系 的 变化 而 变 
化 3 流 终 形成 网 络 。 这 种 网 络 不 单单 指 微 博 、 知 平 、 
Titfer 等 社交 网 络 , 还 有 知 网 .IEEE Xplore 等 引文 网 
络 \ 训 办 .Digg 等 传播 网 络 。 在 这 些 网 络 中 ,除了 用 户 
个 天 属性 .发布 内 容 . 关 注 量 等 真实 可 见 、 直 接 可 用 的 
数据 外 , 便 是 大 量 间接 可 得 的 网 络 关系 ,如 关注 关系 、 


] 户 的 购买 意向 ,并 结合 用 户 的 性 别 \ 年 龄 等 社会 属性 
这 息 进行 产品 推荐 。W. X. Zhao 等 ”根据 用 户 在 微 
博 上 的 关注 内 容 及 发 布 文本 ,检测 用 户 的 购买 意向 ,分 
别 构建 社交 媒体 用 户 画 像 和 电 商 网 站 用 户 画 像 ,并 将 
两 种 画像 进行 映射 和 关联 ,实现 基于 社交 媒体 的 电 商 
产品 推荐 。 单 晓 红 等 “以 携程 酒店 为 例 ,利用 在 线 评 
论 数 据 构建 用 户 画像 概念 模型 ,对 酒店 用 户 特 征 进 行 
刻画 。 余 传 明 等 号 对 股吧 用 户 的 发 文 内 容 进行 深度 表 
示 学 习 , 并 结合 用 户 的 粉丝 量 .关注 量 、 发 帖 量 .评论 


引用 关系 等 。 国 内 外 学 者 基于 网 络 关系 进行 网 络 表 示 
学 习 、 社 区 发 现 、 用 户 画 像 等 研究 ,其 中 用 户 画 像 成 为 
近 些 年 的 一 个 热点 研究 ,为 个 性 化 服务 " 、 推 荐 系 
统 ” 精准 营销 ”等 带 来 巨大 的 应 用 价值 ,如 何 利 用 社 
会 网 络 数 据 准 确 、 全 面 、 有 效 地 刻画 用 户 画 像 , 成 为 众 
多 学 者 们 努力 的 方向 。 


1 相关 研究 

在 早期 的 用 户 画 像 研 究 中 ,学 者 们 根据 用 户 的 发 
布 文本 ,关注 内 容 、 在 线 评论 等 对 用 户 的 社会 属性 、 兴 
趣 爱好 .行为 习惯 、 信 誉 度 等 进行 预测 分 析 。S.，Alaoui 


量 . 吧 龄 等 行为 特征 ,提出 一 种 行为 一 内 容 融 合 模型 ， 
以 识别 股吧 用 户 是 否 属于 噪声 投资 者 。 郭 光明 ”通过 
对 多 源 异 构 数 据 进 行 处 理 和 分 析 ,构建 用 户 信誉 画像 
并 对 用 户 信 誉 度 进行 预测 评估 。 范 晓 玉 等 "融合 个 
人 主页 . 知 网 基金 网 等 多 个 数据 源 信息 ,提出 融合 多 
源 异 构 数 据 的 科研 人 员 画 像 研究 方法 ,并 从 基本 属性 、 
科研 偏好 、 科 研 关系 3 个 方面 对 科研 人 员 进 行 画像 分 
析 。 

随 着 研究 工作 的 进展 ,人 们 发 现在 网 络 平 台 上 ,用 
户 往往 通过 添加 好 友 .相互 关注 .引用 文本 等 方式 与 他 
人 建立 联系 ,鉴于 此 ,学 者 们 开始 利用 网 络 关系 对 网 络 
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中 的 用 户 建 模 ,研究 预测 用 户 的 标签 信息 ,A. Mislove 
等 根据 社交 网 络 中 的 关注 关系 构建 网 络 拓扑 结构 
并 进行 社区 发 现 ,采用 聚 类 算法 根据 已 知 用 户 属 性 信 
息 ,预测 未 知 用 户 属 性 , 曹 玖 新 等 "利用 微 博 关注 关 


针对 以 上 研究 存在 的 问题 ,本 研究 利用 卷 积 神经 
网 络 的 方法 ,融合 网 络 结构 和 文本 内 容 两 方面 特征 ,对 
网 络 中 的 用 户 进 行 建 模 ,通过 将 用 户 表示 成 空间 向 量 
来 处 理 复杂 的 网 络 关 系 。 将 深度 学 习 方法 训练 得 到 的 


系 拓扑 结构 ,采用 概率 级 联 模型 和 机 器 学 习 方 法 对 用 
户 的 转发 行为 进行 预测 , 刘 勘 等 "融合 用 户 行为 .用 
户 发 布 内 容 以 及 社交 关系 等 维度 ,采用 随机 森林 算法 
对 微 博 机 器 用 户 构建 识别 模型 , 徐 志明 等 "将 微 博 社 
会 网 络 看 做 加 权 无 向 图 ,根据 边 的 权 值 判 断 用 户 之 间 
的 相似 性 。 虽然 上 述 研究 中 融合 了 网 络 关 系 ,但 是 在 
复杂 网 络 中 ,机 器 学 习 方法 通常 具有 局 限 性 ,尤其 在 无 
法 提供 大 量 的 训练 集 时 ,传统 方法 的 建 模 精度 比较 低 。 

为 了 简化 对 复杂 关系 的 处 理 ,学 者 们 通过 构建 网 
络 和 群体 ,从 整体 上 对 群体 用 户 进行 分 析 。 林 燕 起 和 谢 
湘 年 "” 根据 社会 认同 理论 定义 微 博 主题 ,并 对 微 博 发 
三 阅 容 进行 主题 分 类 ,最 后 采用 多 维 标 度 法 实现 群体 
条 和 , 张 宏 半 等 “通过 构建 移动 终端 日 志 数 据 主题 模 
型 = 委 据 用 户 日 志 数据 与 主题 的 相关 度 进行 聚 类 ,能 伟 
等 下 利用 LDA 主题 模型 对 网 页 内 容 划分 主题 ,并 根据 
用 加 行为 信息 分 群 画 像 ,这 些 方法 虽然 避免 了 对 复杂 
网 络 关系 的 处 理 ,但 仅 基于 用 户 文本 内 容 进行 聚 类 , 虽 
g 基 到 了 内 容 上 的 相似 ,但 群体 的 网 络 结构 却 不 够 紧 
钾 , 为 此 ,有 些 学 者 专门 基于 网 络 结构 进行 群体 构建 ， 
以 提高 群体 紧密 度 , 如 V，D. Blondel 等 "提出 了 根据 
入 和 网 络 图 构建 社 群 的 方法 ,J，Leskovec 等 "通过 构 
造 窒 向 无 权 图 对 社交 用 户 聚 类 成 群 ,虽然 基于 结构 的 
来 类 方法 可 以 提高 群体 的 紧密 度 ,但 这 些 群 体 在 内 容 
或 属性 上 未 必 相 似 。 理 想 的 网 络 群 体 构建 方法 不 仅 结 
构 上 紧密 ,而 且 内 容 上 相似 ,因此 ,K. Steinhaeuser 和 
N.V。Chawla "将 节点 属性 作为 网 络 图 的 边 的 权重 ， 
提出 一 种 基于 随机 游 走 的 群体 构建 方法 , Y，Zhou 
等 "定义 了 一 种 结合 结构 和 属性 相似 度 的 距离 测量 
方法 ,将 节点 属性 和 边 添加 到 图 中 以 构建 网 络 群 体 ,2. 
Xu 等 丰 提 出 一 种 基于 贝 叶 斯 概率 模型 的 图 聚 类 方 
法 ,该 方法 从 图 结构 和 属性 信息 两 方面 建 模 ,避免 了 对 
距离 的 计算 , 陈 克 寒 等 ”根据 用 户 微 博 内 容 相似 度 融 
合 图 摘要 方法 聚 类 建 群 ,实现 用 户 兴趣 推荐 的 目的 , 吴 
树 芳 等 2 根据 用 户 之 间 的 关系 ,通过 线性 调和 链 入 标 
签 相似 度 和 链 出 标签 相似 度 , 对 用 户 的 相似 性 进行 度 
量 。 虽 然 这 些 研究 在 考虑 结构 的 基础 上 尽量 达到 内 容 
上 的 相似 ,但 是 群体 的 紧密 度 和 相似 度 往往 不 可 兼顾 ， 
即 相似 度 高 的 群体 紧密 度 低 ,紧密 度 高 的 群体 相似 度 
低 , 达 不 到 理想 的 群体 构建 效果 。 
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用 户 表示 向 量 进 行 聚 类 ,在 k-means 算法 基础 上 ,利用 
结构 模块 度 和 内 容 模 块 度 对 聚 类 群体 强度 进行 评估 ， 
构建 网 络 群 体 , 使 群体 内 部 在 结构 上 更 加 紧密 ,在 内 容 
上 更 加 相似 ,以 实现 较为 理想 的 群体 构建 方法 。 


2.1 网 络 用 户 表示 

在 各 类 网 络 平台 上 ,用 户 都 会 通过 加 好 友 或 者 关 
注 等 行为 与 其 他 用 户 构建 网 络 关系 ,网 络 中 的 用 户 一 
且 发 生 交互 ,用 户 的 各 种 信息 都 有 可 能 发 生 改 变 ,可 能 
根据 交互 用 户 的 不 同 表现 出 不 同方 面 的 特点 ,也 可 能 
根据 关注 内 容 的 不 同 与 不 同 的 用 户 交 互 。 如 在 现实 社 
交 网 络 中 有 A、B、C3 名 学 者 ,A 人 研究 深度 学 习 与 数据 
挖 气 ,B 人 研究 数据 挖掘 与 自然 语言 处 理 ,C 研究 自然 语 
言 处 理 与 用 户 画像 ,学 者 B 与 A 可 能 由 于 数据 挖掘 相 
关 的 研究 进行 合作 ,学 者 了 与 C 也 可 能 一 起 研究 自然 
语言 处 理 , 并 且 可 以 推断 ,学 者 A 与 C 可 能 因为 B 达 
成 合作 , 即 采 用 深度 学 习 的 方法 研究 用 户 画 像 。 和 针对 
这 种 复杂 的 网 络 关系 ,传统 方法 难以 准确 建 模 ,为 了 能 
够 较为 准确 地 对 网 络 用 户 进 行 表 示 , 本 人 研究 采用 深度 
学 习 的 方法 ,通过 深度 训练 对 用 户 建 模 ,除了 考虑 显 式 
的 网 络 关 系 以 外 ,还 根据 文本 的 上 下 文 语义 信息 来 推 
断 隐 含 的 网 络 关 系 。 
2.1.1 方法 概述 在 网 络 表示 方法 中 ,基于 神经 网 络 
的 方法 通常 在 构建 模型 时 设置 一 个 损失 函数 ,通过 优 
化 该 函数 找到 更 加 合适 的 参数 值 ,建立 较为 准确 的 模 
型 , 相 比 基于 和 矩阵 的 方法 往往 运算 速度 快 ,执行 效率 
高 ,精确 度 也 会 提高 ,因此 本 研究 采用 基于 神经 网 络 的 
方法 将 用 户 表示 成 空间 向 量 形式 ,为 了 兼顾 结构 与 内 
容 两 方面 特征 ,分 为 结构 表示 向 量 和 内 容 表 示 向 量 两 
部 分 。 近 几 年 ,经 典 的 基于 神经 网 络 的 网 络 结构 表示 
方法 有 DeepWork 、LINE 和 Nod2vec, 其 中 ,只 有 LINE 
方法 生成 的 是 上 下 文 相关 的 节点 表示 ,而 后 文 由 节点 
内 容 生成 的 “内 容 表 示 向 量 " 也 是 上 下 文 相关 的 ,采用 
LINE 方法 更 加 有 利于 两 者 合并 ,另外 ,LINE 方法 采用 
了 一 阶 近邻 和 二 阶 近邻 (一 阶 邻 近 是 指 直 接 相 连 的 节 
点 ,二 阶 邻 近 是 通过 其 他 中 介 点 相连 的 节点 ) ,这 种 表 
示 也 更 加 符合 真实 网 络 中 用 户 之 间 的 关系 (用 户 之 间 
通过 直接 关注 建立 联系 或 者 由 于 关注 了 同一 用 户 而 建 
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立 联系 )。 由 于 网 络 结构 复杂 且 信 息 量 较 大 ,机 器 学 习 
方法 的 处 理 效 率 比 较 低 ,而 卷 积 神经 网 络 方法 在 CPU 
配置 环境 下 ,处 理 速度 非常 快 ,另外 ,在 对 文本 内 容 进 
行 特征 表示 时 , 相 比 于 n-grams, 卷 积 神经 网 络 方法 在 
表征 高 维特 征 时 更 具 优势 ,因此 ,本 研究 的 结构 表示 向 
量 采 用 本 Tang 等 ”提出 的 LINE 模型 来 实现 ,内 容 表 
示 向 量 采 用 卷 积 神经 网 络 方法 实现 ,最 终 将 两 种 表示 
向 量 求 和 得 到 用 户 表示 向 量 。 

卷 积 神经 网 络 架 构 共 分 为 3 层 ,将 用 户 的 文本 内 
容 和 网 络 关系 作为 卷 积 神经 网 络 的 输入 层 , 得 到 文本 
矩阵 ,将 文本 矩阵 进行 卷 积 、 池 化 等 操作 ,以 此 作为 隐 
藏 层 ,在 输出 层 使 用 softmax 函数 对 隐藏 层 结果 进行 向 
量 归 一 化 ,得 到 单位 向 量 ,单位 向 量 乘 以 文本 和 矩阵 得 到 
内 纵 表 示 向 量 。 通 过 卷 积 神经 网 络 生 成 内 容 表 示 向 量 
的 流程 如 图 1 所 示 ， 
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2.1.2 方法 实现 

(1) 过 程 描述 。 定 义 网 络 图 G = (V,E,7) ,V 表示 
网 络 中 的 节点 ,ECVxV 是 由 节点 构成 的 边 , 用 来 表示 
节点 间 的 关系 ,7 表示 节点 的 文本 内 容 。 由 图 1 可 见 ， 
以 边 e(u,v) eB 上 的 两 个 节点 weV,ve VV, 为 例 ,利用 
卷 积 神经 网 络 得 到 内 容 表 示 向 量 的 具体 过 程 如 下 : 

第 一 ,将 两 个 节点 的 关注 内 容 转 换 成 单词 序列 5,、 
S, ,通过 卷 积 层 进行 卷 积 运算 分 别 生成 Pe R* 和 0Q e 
R"*" 两 个 文本 矩阵 ,其 中 ,mn 分 别 表示 5, 、5, 的 长 度 ， 
d 表示 空间 维度 。 

第 二 ,引入 辅助 矩阵 4 e R” ,计算 相关 和 矩阵 ee 


R"" 为 : 
F=tanh(P’'AQ) ( 
第 三 ,采用 均值 池 对 和 矩阵 的 行 和 列 分 别 进行 行 
池 化 和 列 池 化 ,得 到 PQ 的 池 化 向 量 为 : 
p=[pi, pa] ,9=[q,,9,] (2) 
第 四 ,利用 softmax 归 一 化 函数 将 PQ 的 池 化 向 量 
转化 成 单位 向 量 a” 和 a ,gq" 的 第 i 个 元 素 表 示 为 : 


exp(pi) 
“= 3 
2 jr1m1exp(p;) ( ) 
其 中 ,p, = mean( ，…,) ,表示 的 第 i 个 元 
素 , 即 矩阵 下 每 行 池 化 的 结果 。%' 计算 同 w 。 


第 五 ,单位 向 量 与 文本 矩阵 的 乘积 即 为 内 容 表示 


向 


水 


u, = Pa’, v= Qa’ (4) 

(2) 损 失 函 数 。 在 统计 学 和 机 顺 学 习 中 ,损失 函 

数 通常 是 用 来 衡量 错误 和 损失 程度 的 函数 ,本 研究 将 

损失 函数 用 于 用 户 建 模 的 评估 ,目的 是 最 小 化 损失 函 

数 , 提 高 建 模 精确 度 。 由 节点 w 预测 交互 对 和 象 为 节点 v 

的 条 件 概 率 的 相反 数 作为 整个 模型 的 损失 函数 ,u 产 
生 w 的 条 件 概率 定义 为 : 

log(vIlu) =a * log(v lu,) +B: log) +B: 

log(v.lu,) +y * log(v. lu.) (5) 


exp(u, * v.) 
svep(l, * w,) (6) 


其 中 ,u,v,%, 分 别 表示 节点 ww 的 结构 表示 向 
量 ,a ,By 表示 参数 。 

整个 模型 的 损失 函数 定义 为 : 

Loss = -之 .celog(zlz) (7) 

2.2 网 络 群体 构建 

将 模型 训练 得 到 的 用 户 表 示 向 量 作为 聚 类 算法 的 
输入 ,提出 基于 网 络 结构 和 文本 内 容 的 群体 构建 方法 
( group construction method based on network structure 
and text content ,GCNSTC ) ,使 得 关系 紧密 且 相 似 的 用 
户 聚 类 成 群 。 采 用 k -means 算法 聚 类 ,利用 模块 度 对 
聚 类 结果 进行 评估 并 不 断 迭 代 更 新 ,直到 聚 类 结果 不 
再 改变 。 模 块 度 由 M. E. J_ Newmant5 提出 ,是 一 种 
j 来 衡量 网 络 社区 结构 强度 的 度量 值 。 为 了 使 聚 类 效 
果 更 佳 ,从 网 络 结构 和 文本 内 容 两 个 角度 定义 模块 度 ， 
将 结构 模块 度 与 内 容 模块 度 加 权 求 和 作为 最 终 的 模块 
度 评 佑 指标 。 结 构 模 块 度 与 内 容 模块 度 的 计算 公式 如 
下 : 

(1) 结 构 模块 度 。 利 用 传统 的 Newman 模块 度 求 
解 公 式 计算 。 


log(v,lu.,) = 5 


Se 
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广 上 innviwv 人 人生 甘 日 生 咱 
LnlinaxIV 瑟 1 人 F 基 二 


M .= 了 wmnecS(x,7)6(0CC，) (8) 
S(x,y) = (4 -0 
其 中 ,xy 表示 节点 ;C,、C, 表示 群体 ;4, 表 示 当 节 
点 x*y 相连 时 值 为 1, 否 则 为 0;d, 表示 节点 x 的 度 ;m 
表示 网 络 中 的 总 边 数 ,2m 表示 整个 网 络 的 度 ;6(C,， 
C,) 表 示 当 *y 在 同一 个 群体 时 值 为 1 ,否则 值 为 0。 
(2) 内 容 模块 度 。 将 节点 的 文本 内 容 转换 成 可 
量 的 向 量 表示 形式 ,利用 余弦 相似 度 计算 内 容 模 


O 


(9) 


法 当 
汝 


1 = 之 necCCx,y) (10) 


CS Al Saha 0) (11) 
其 中 ,4 表示 文本 表示 向 量 的 维度 。 
本 (3) 将 结构 模块 度 和 内 容 模块 度 加 权 求 和 得 最 终 
的 模块 度 评估 指标 M: 
所 M=woM +(l1-w)M. (12) 
酉 其 中 ,o 为 加 权 因子 ,0 <w<1。 
中 根据 结构 模块 度 和 内 容 模块 度 , 对 网 络 用 户 进行 
聚 类 的 算法 见 算法 1: 


基于 结构 _ 内 容 模 块 度 的 聚 类 算法 


A 用 户 表示 向 量 ,用 户 关注 内 容 ,初始 群体 个 数 k 
输 由 群体 个 数 K ,一 组 群 休 
3 油 用 k-means 聚 类 算法 ,得 到 k 个 群体 


(和 = a for 群体 j do 
( 引 = 让 节点 i 不 在 群体 j 中 do 
(6) 池 将 节点 i 从 其 群体 中 移 除 并 加 入 到 群体 j 


0) 计算 将 节点 1 加 入 后 的 模块 度 增 量 

(8) Ed 证 

(9 ) end for 

(10) “选择 模块 度 增 量 最 大 的 群体 j, 将 节点 移 到 群体 j, 否 则 ,节点 i 保留 
在 原 群体 


(11) end for 
(12)until 群体 不 再 发 生变 化 


3 实验 


3.1 数据 获取 及 预 处 理 

本 文采 用 中 英文 两 种 数据 集 进行 对 比 实验 ,用 以 
说 明文 中 方法 的 可 行 性 以 及 对 中 英文 数据 集 的 普遍 适 
用 性 ,中 文 数据 集 采 用 从 知 乎 怜 取 的 用 户 数据 ,英文 数 
据 集 则 源 于 A，K.， Mecallum 等 ”创建 的 英文 引文 网 
络 Cora。 由 于 文章 旨 在 融合 网 络 结构 和 文本 内 容 两 方 
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面 特征 对 网 络 用 户 建 模 , 因 此 ,采集 的 数据 包含 文本 数 
据 和 网 络 结构 数据 两 部 分 。 
3.1.1 知 乎 数据 集 使 用 爬虫 工具 ache 对 知 乎 用 户 
的 关注 话题 内 容 及 用 户 之 间 的 关注 关系 进行 息 取 ， 
ache 可 以 根据 指定 的 搜索 主题 或 属性 内 容 , 返 回 相关 
的 搜索 页 面 。 在 配置 ache 时 设置 候 取 内 容 为 “关注 话 
题 描述 内 容 ” ,设置 息 取 的 用 户 数量 为 10 000 ,关注 话 
题 数 小 于 等 于 3。 对 于 疏 取 的 文本 ,首先 采用 Python 
正则 表达 式 去 除 文本 中 含有 的 html 标签 内 容 , 然 后 利 
有 jieba 分 词 对 文本 进行 分 词 处 理 , 使 文本 表示 转化 成 
司 序列 表示 ,然而 中 文 文本 处 理 常 带 遇 到 乱码 问题 ， 
此 ,在 读 取 数据 进行 分 词 处 理 时 采用 GBK 编码 ,进行 
分 词 处 理 后 采用 utf8 编码 存储 数据 。 分 词 处 理 后 文本 
中 通常 会 有 一 些 无 效 的 词 , 比 如 “这 ”“ 这 个 ”了 了” 
“什么 ”“ 呢 ?等 ,采用 中 文 停 用 词 表 去 除 无 效 词 ,最 终 
得 到 中 文 文本 数据 集 。 对 于 网 络 结构 数据 ,每 名 用 户 
都 有 一 个 唯一 确定 的 编号 D, 当 用 户 之 间 存 在 关注 关 
系 时 ,在 数据 集中 存储 两 个 用 户 的 ID 信息 ,如 果 没 有 
关注 关系 , 则 不 用 存储 。 

利用 LDA 主题 模型 对 关注 内 容 进行 话题 分 类 ， 

知 乎 文本 数据 集 (不 完全 列举 ) 见 表 1 所 示 。 知 乎 结构 
数据 集 共 含 节点 10 000 个 , 边 43 894 条 。 
3.1.2 Cora 数据 集 ”Cora 是 一 个 经 数据 爬 取 后 的 引 
文 网 络 ,但 是 该 网 络 数据 比较 大 ,本 文 从 中 筛选 出 有 关 
“机 器 学 习 ”的 相关 文章 作为 文本 内 容 。 对 得 到 的 文 
本 进行 预 处 理 ,使 用 Python 类 库 pyenchant 进行 拼写 检 
查 更 正 ,删除 掉 形 如 “like”“lke” 等 拼写 错误 的 词 , 然 
后 进行 英文 文本 分 词 。 英 文 文本 分 词 采用 Python 中 
nltk 的 SnowballStemmer 类 进行 词 干 提取 并 使 用 Word- 
NetLemmatizer 类 进行 词 形 还 原 。 男 外 ,英文 字母 有 大 
小 写 之 分 ,如 “Hello” 和 “hello” 表 示 一 个 含义 ,但 由 于 
大 小 写 的 不 同 , 往 往 被 当做 两 个 词 ,因此 ,需要 将 所 有 
大 写字 母 转 换 为 小 写 , 采 用 Python 的 API 来 实现 。 最 
后 ,英文 文本 中 通常 含有 一 些 类 似 “of”“to”“an”“a” 
等 无 效 词 ,通过 引入 英文 停 用 词 表 去 除 无 效 词 ,得 到 实 
验 所 需 英文 文本 数据 集 。 对 于 网 络 结构 数据 ,每 篇 文 
章 都 有 一 个 编号 上 D ,根据 筛选 出 的 文章 编号 查找 引用 
关系 并 存储 。 

从 Cora 引文 网 络 中 筛选 出 2 277 篇 机 器 学 习 相 关 
论文 ,根据 研究 内 容 分 成 7 个 类 别 , Cora 文本 数据 集 
(不 完全 列举 ) 见 表 2。Cora 的 结构 数据 集 含 节 点 为 
2 277 个 , 边 为 5 214 条 。 
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表 1 知 乎 文本 数据 集 


局 关注 内 容 话题 1 话题 2 话题 3 

0 心理 学 Psychology 一 门 学 科 注意 话题 心理 区 别 研究 动物 心理 现象 .……… 心理 学 设计 美食 

1 电影 一 种 视听 媒介 利用 胶卷 录像 带 数位 媒体 影像 声音 捕捉 加 … … 电影 创业 运动 健康 

2 电影 一 种 视听 媒介 利用 胶卷 录像 带 数位 媒体 影像 声音 捕捉 加 … … 电影 互联 网 旅行 

3 生活 物质 生活 精神 生活 总 称 物质 生活 生活 基本 需要 精神 生活 . .， ， 和 设计 阅读 

4 电影 一 种 视听 媒介 利用 胶卷 录像带 数位 媒体 影像 声音 捕捉 加 ..…… 电影 互联 网 生活 

5 最 类 景色 永远 远方 再 远 脚步 不 出 心房 一 种 社会 行为 使 用 体育 运 . 旅行 运动 健康 。 自然 科学 

6 心理 学 Psyehology 一 门 学 科 注意 话题 心理 区 别 研究 动物 心理 现象 心理 学 经 济 学 科学 技术 

7 教育 培养 新 生 一 代 准备 从 事 社会 生活 整个 过程 人 类 社会 生产 教育 文学 物理 学 

8 电影 一 种 视听 媒介 利用 胶卷 录像 带 数位 媒体 影像 声音 捕捉 加 … … 电影 摄影 古典 音乐 

9 电影 一 种 视听 媒介 利用 胶卷 录像 带 数位 媒体 影像 声音 捕捉 加 ..….……. 电影 互联 网 旅行 

表 2 Cora 文本 数据 集 
编号 论文 内 容 类 别 
== Graphical models enhance representational power probability models qualitative characterization properties This also leads greater efficiency terms...... 2 
2 Realtime Decision algorithms class incremental resourcebounded Horvitz anytime Dean algorithms evaluating influence diagrams We present test...... 2 

LO Speedup learning seeks improve computational efficiency problem solving experience Im paper develop formal framework learning efficient problem...... 3 
全 This paper presents incremental concept learning approach identiflcation concepts high overall accuracy The main idea address concept overlap. ..... 6 
(em ) In previous paper SM showed finite automata could used define objective functions assessing quality alignment two sequences In paper show results...... 0 
©O Wahba Wang Gu Klein Klein introduced Smoothing Spline ANalysis VAriance SS ANOVA method data exponential families Based RKPACK fits SS...... 0 


,> 对 比方 法 

= 本 文采 用 3 种 群体 聚 类 算法 作为 基线 ,分 别 从 基 
了 汪 林 内容 、 基于 网 络 结构 以 及 基于 结构 和 内 容 3 个 
面 进行 对 比 实验 。 

己 (1)K-means 算法 :基于 内 容 的 聚 类 算法 采用 开 - 
me@is 作为 基线 ,将 文本 内 容 转 换 成 向 量 等 形式 ,通过 
计算 文本 间 的 距离 进行 聚 类 。 

(2)Louvain 算法 : 潘 理 等 ”指出 社区 发 现 算法 只 
关注 聚 类 结果 在 结构 上 的 稠密 性 ,而 不 考虑 节点 的 属 
性 信息 ,因此 ,基于 结构 的 方法 采用 的 是 社区 发 现 中 的 
经 典 算法 Louvain 算法 ,该 算法 通过 构造 加 权 网 络 , 利 
用 节点 之 间 的 关系 ,将 每 个 节点 看 做 一 个 社区 ,不 断 计 
算 将 节点 加 入 其 邻居 节点 的 模块 度 增益 构建 社 群 。 

(3)SA-Cluster 算法 :基于 结构 和 内 容 的 算法 是 采 
用 Y. Zhou 等 ! [21] 提出 的 SA -Cluster 算法 ,将 节点 的 属 
性 信息 添加 到 网 络 中 建立 增 广 网 络 ,然后 定义 结构 和 
属性 相似 度 , 并 利用 随机 游 走 算法 计算 网 络 节 点 之 间 
的 距离 ,从 而 实现 群体 的 构建 。 

3.3 评估 指标 

采用 密度 与 粹 两 个 评估 指标 对 上 述 群 体 构建 方法 

进行 评估 。 密 度 主 要 反映 群体 内 部 成 员 之 间 关 系 的 紧 


个 


密 程度 ,密度 值 越 大 ,群体 成 员 之 间 关 系 越 紧密 ,密度 
的 计算 公式 为 : 

Wa (13) 

其 中 ,% 表示 群体 个 数 ,m 表示 网 络 的 总 边 数 ,m， 


表示 群体 i 中 的 边 数 。 

焙 , 原 是 热力 学 中 用 来 度量 体系 中 混乱 程度 的 物 
理 量 ,此 处 是 用 来 反映 群体 内 成 员 之 间 的 相似 度 。 如 
果 社 交 网 络 中 的 节点 加 入 某 一 群体 后 ,导致 习 值 增 大 ， 
则 说 明 该 节点 的 加 入 会 引入 额外 的 信息 ,因而 ,该 节点 
与 群体 中 其 他 节点 的 差异 性 较 大 ,所 以 , 粹 值 越 小 , 混 
乱 程 度 越 低 ,群体 成 员 之 间 越 相似 , 信 的 计算 公式 为 : 


ch, 二 
B= ~ .Fpylogtp,) 
i n 


中 ,n 表示 网 络 的 总 节点 数 ,n, 表示 群体 i 中 的 
节点 数 ,p; 表 示 群 体 i 中 具有 类 别 j 的 节点 所 占 百 分 
. 
3.4 实验 结果 及 分 析 
将 本 文 方法 同上 述 3 种 群体 构建 方法 进行 比较 ， 
分 别 在 知 乎 数据 集 和 Cora 数据 集 上 设置 对 比 实验 (w 
=0.5) ,采用 密度 和 焙 两 种 评价 指标 进行 评 佑 , 知 乎 数 


(14) 


其 


一 
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据 集 的 实验 结果 见 表 3, Cora 数据 集 的 实验 结果 见 
表 4。 
表 3 知 乎 数据 集 实 验 结果 


方法 密度 和 炉 
K -means 0.33 0.00 
Louvain 0.47 1.58 
SA -Cluster 0.54 1.69 
GCNSTC 0.39 0.64 


表 4 Cora 数据 集 实验 结果 


方法 密度 炉 
下 -means 0.42 0. 00 
Louvain 0.66 1.70 
SA -Cluster 0.71 1. 83 
GCNSTC 0.57 0.85 


在 知 乎 数据 集 上 ,GCNSTC 方法 的 密度 高 于 - 
Te 算法 , 低 于 Louvain 和 SA -Cluster, 说 明 CCNSTC 
衣 加 在 群体 紧密 度 上 优 于 下 -means 算法 ,但 是 比 Lou- 
vain “和 SA -Cluster 方法 稍 差 些 ; 通 过 焙 值 比较 ,K-means 
咎 起 的 糊 什 为 0, 群 体内 成 员 相似 度 最 高 ,GCNSTC 方 
渤 取 Louvain 和 SA-Cluster 方法 的 烂 值 均 小 , 群 内 成 员 
的 相似 度 比 两 者 要 好 。 

在 Cora 数据 集中 可 见 ,GCNSTC 的 密度 值 为 0.57， 
en K -means 算法 , 低 于 Louvain 和 SA -Cluster 
户 关 ,说 明 CCNSTC 方法 得 到 的 群体 在 紧密 度 上 较为 
理想 ;K-means 的 箭 值 仍然 是 4 个 方法 中 最 低 的 ,在 群 
体 下 似 度 上 效果 最 好 ,但 是 GCNSTC 方法 的 粹 值 跟 
Lin 和 SA-Cluster 方法 相差 1/2 之 多 ,在 群体 相似 
度 上 明显 优 于 Louvain 和 SA-Cluster 方法 。 

综 上 所 述 ,通过 在 中 英文 两 种 数据 集中 对 GC- 
NSTC 方法 的 聚 类 结果 进行 比较 ,得 到 相似 的 聚 类 效 
果 ,说 明 本 文 方法 对 中 英文 数据 集 具 有 普 适 性 。 通 过 


密度 值 比较 ,虽然 CCNSTC 方法 没有 Louvain 和 SA - 


Cluster 方法 效果 好 ,但 优 于 基于 内 容 的 人 -means 聚 类 
方法 ,平均 密度 值 增加 0. 105 ,因此 就 紧密 度 而 言 本 文 
聚 类 方法 较为 理想 。K-means 算法 的 箭 值 始 终 为 0 ,是 
因为 K-means 算法 根据 文本 距离 进行 聚 类 ,数据 挖掘 
中 通常 用 距离 表示 相 异 度 , 而 相 异 度 与 相似 度 是 一 对 
相反 的 概念 ,因此 距离 越 近 内 容 越 相 似 ,所 以 在 群体 相 
似 度 上 K -means 算法 都 是 上 述 方法 中 最 好 的 ,但 是 
GCNSTC 方法 的 炉 值 比 Louvain 和 SA -Cluster 方法 平均 
减少 0. 955 ,在 群体 相似 度 上 ,GCNSTC 方法 优 于 基于 
结构 的 方法 (包括 基于 结构 和 内 容 的 方法 ) 。 
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3.5 讨论 

在 群体 相似 度 上 ,从 上 述 实验 结果 结果 可 以 看 
出 ,基于 内 容 的 K-means 方法 的 炉 值 最 低 , 群 体 的 相 
似 度 最 高 ,这 是 因为 人 -means 算法 只 考虑 了 文本 内 容 
的 相似 性 , 仅 根据 文本 内 容 之 间 的 欧 氏 距离 进行 聚 
类 ,通过 寻找 距离 聚 类 中 心 最 近 的 文本 找到 相似 群 
体 ;而 GCNSTC 方法 则 是 将 文本 内 容 和 网 络 结构 进行 
融合 , 即 在 K-means 聚 类 群体 中 引入 了 网 络 结构 信 
息 ,根据 信息 论 中 信 的 定义 , 炉 反 映 了 个 体 出 现 概率 
对 整体 信息 出 现 的 不 确定 性 ,在 群体 中 引入 低 相似 
度 的 网 络 结构 信息 ,导致 整体 相似 的 不 确定 性 增加 ， 
所 以 GCNSTC 方法 的 炉 值 高 于 K-means 算法 ,但 是 相 
比 Louvain 和 SA-Cluster,GCNSTC 方法 引入 的 额外 信 
息 较 少 , 在 一 定 程度 上 达到 了 次 优 。 从 紧密 度 来 看 ， 
GCNSTC 方法 的 密度 值 虽 然 优 于 K-means 算法 ,但 相 
比 其 他 两 种 方法 较 差 ,这 是 因为 本 文 在 结构 表示 向 
量 的 处 理 上 ,采用 的 LINE 模型 属于 浅 层 神经 网 络 模 
型 ,在 与 深度 模型 得 到 的 内 容 表示 向 量 合并 后 ,深度 
模型 得 到 的 结果 较 浅 层 模型 结果 更 精确 ,相对 弱化 
了 结构 表示 向 量 在 整体 用 户 表示 向 量 中 的 存在 ,使 
得 用 户 表 示 向 量 更 加 侧重 于 内 容 表 示 , 因 此 ,在 实验 
结果 中 ,GCNSTC 方法 在 结构 紧密 性 上 仅 优 于 基于 内 
容 的 K-means 算法 ,后 期 将 重点 对 该 问题 进行 研究 。 

根据 实验 结果 ,将 上 述 4 种 方法 得 到 的 群体 紧密 
度 和 群体 的 相似 度 进行 排名 ,从 群体 紧密 度 上 看 ,SA- 
Cluster > Louvain > GCNSTC > K-means ,GCNSTC 方法 排 
名 第 三 , 仅 优 于 天 -means 方法 ,从 群体 的 相似 度 上 看 ,KK 
-means > GCNSTC > Louvain > SA -Cluster, GCNSTC 方法 
在 4 种 方法 中 达到 次 优 ,与 基于 结构 的 方法 比 ,达到 最 
优 ,由 此 可 见 , 本 文 所 提 方 法 在 群体 紧密 度 和 群体 相似 
度 上 均 有 改进 ,并 且 在 群体 相似 度 上 改进 效果 更 明显 。 
为 进一步 说 明 此 结论 ,将 CCNSTC 方法 同 另外 3 种 方 
法 的 密度 值 和 粹 值 进行 比较 ,变化 量 见 表 5。 从 表 5 中 
可 以 看 出 ,虽然 GCNSTC 方法 相对 于 -means 方法 在 
密度 上 有 所 改进 ,但 是 与 完全 基于 文本 相似 度 的 开 - 
means 方法 相 比 ,综合 信 值 之 后 整体 情况 不 如 K-means 
方法 ;而 对 于 SA -Cluster 和 Louvain 方法 ,在 炉 值 上 改 
进 效果 明显 ,整体 而 言 优 于 SA -Cluster 和 Louvain 方 
法 。 总 之 ,本 文 所 提 方 法 在 一 定 程 度 上 是 有 效 的 ,并 且 
在 炉 值 上 效果 更 明显 ,构建 的 群体 相似 度 较 高 ,群体 紧 
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表 5 密度 值 和 炳 值 比较 结果 
知 乎 数据 集 Cora 数据 集 
方法 = a a 
K -means 10.06 0.64 0.58 10.15 0.85 0.70 
Louvain 140.08 10.94 10.86 0.09 10.85 10.76 
SA -Cluster 410.15 人 1.05 人 0.90 J0.14 10.98 1+0.84 


4 实例 分 析 

统计 中 文 数据 集中 每 名 用 户 的 粉丝 数量 并 降序 排 
序 , 前 50 名 中 用 户 编 号 ID 均 在 1 000 以 内 ,前 100 名 
中 ,只 有 两 名 用 户 的 编号 不 在 1 000 以 内 ,前 200 名 中 


约 有 89% 的 用 户 了 D 在 1000 以 内 ,并 且 编 号 小 于 1 000 
的 所 有 用 户 及 其 粉丝 用 户 大 约 占据 了 整个 网 络 的 
80% ,本 文 将 这 1 000 名 用 户 设 为 整个 网 络 的 重要 性 用 
户 。 本 文选 取 这 1 000 名 用 户 , 从 群体 内 容 的 相似 性 
和 结构 的 紧密 性 两 个 角度 ,对 构建 的 群体 进行 分 析 , 每 
名 用 户 含 有 1 至 3 个 关注 话题 。 利 用 文中 聚 类 方法 将 
日 户 聚 成 10 个 群体 ,本 文 规定 群体 中 每 个 话题 的 关注 
量 占 该 群体 话题 关注 总 量 的 10% 以 上 , 即 为 主要 关注 
话题 ,经 统计 ,每 个 群体 的 成 员 数 .话题 关注 总 量 主要 
关注 话题 等 信息 汇总 见 表 6。 
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表 6 群体 及 其 关注 话题 信息 
群体 成 员 数 ee 主要 关注 话题 (关注 量 ) Rs 人 
1 55 164 互联 网 (54) 创业 (41) 电影 (21) 70.7 23.6 
> ， 31 62 文学 (9) 14.5 14.5 
3 78 212 电影 (52) 美食 (41) 43.9 22 
4 135 371 心理 学 (106) 经 济 学 (87) 52 26 
5 122 346 创业 (213) 61.5 61.5 
6 263 781 互联 网 (250) 电影 (181) 旅行 (124) 71.1 23.7 
7 185 549 生活 (139) 电影 (119) 旅行 (92) 音 乐 (64) 75.4 18.9 
8 71 179 心理 学 (19) 10.6 10.6 
9 30 gl 影 (31) 电影 (19) 64.9 32.5 
30 73 电影 (8) 11 11 


"从 主要 关注 话题 总 量 上 看 ,有 6 个 群体 的 主要 话 
题 关注 量 占 比 超过 50% ,表明 这 些 群 体 的 用 户 关注 话 
题 号 群 体 整 体 关注 内 容 大 体 吻 合 ,用 户 之 间 在 内 容 上 
相 惩 度 较 高 ;虽然 群体 3 的 主要 关注 话题 占 关注 话题 
总 晤 的 43. 9% ,但 其 主要 关注 话题 只 有 两 个 ,从 整体 
上 外 ,群体 用 户 比 较 相 似 ;群体 2.8、10 相 比 其 他 群体 
而 言 , 聚 类 效果 不 太 理 想 ,群体 主要 关注 话题 占 比比 较 
低 ,说明 群体 内 成 员 关注 话题 比较 多 ,并 且 每 个 关注 话 
题 的 关注 量 比较 低 ( 低 于 10% ) ,群体 成 员 之 问 差异 性 
较 大 。 从 平均 主要 关注 话题 量 上 看 ,群体 5 的 聚 类 效 


果 最 好 ,其 主要 关注 话题 具有 "创业 ”, 且 关注 量 达 


61.5% ,说 明 该 用 户 群 体 主要 关注 的 是 创业 内 容 ,个 别 
用 户 关注 的 是 其 他 话题 ,但 关注 量 不 多 ;虽然 群体 7 的 
主要 关注 话题 量 高 达 75.4% ,但 平均 主要 关注 话题 量 
却 只 有 18.9% ,可 见 其 群体 整体 主要 关注 内 容 较 多 ， 
相似 度 较 低 。 

针对 上 述 10 个 群体 ,统计 每 名 用 户 的 关注 用 户 ， 
按 其 数量 的 降序 排序 。 由 于 有 些 群 体 的 成 员 数 较 少 ， 
而 有 些 群体 的 关注 用 户 有 多 个 ,因此 ,选择 关注 量 大 于 
10 且 排 名 前 3 的 用 户 汇总 见 表 7。 从 表 7 中 可 以 看 


ee 
里 


出 ,群体 2、8、10 的 成 员 关 注 同 一 用 户 的 数量 超过 整个 
群体 的 一 半 , 这 些 成 员 以 关注 的 用 户 为 中 心 形成 子 群 
体 , 子 群体 占 整 个 群体 的 50% 之 多 ,因此 ,整个 群体 结 
构 相 对 比较 紧凑 ;群体 3 和 群体 9 相 比 前 3 个 群体 , 紧 
密度 降低 ,群体 中 含有 一 些 未 列举 的 小 的 子 群体 ,虽然 
每 个 子 群体 不 大 ,但 总 体 上 却 前 弱 了 群体 的 紧密 度 ; 剩 
余 5 个 群体 ,成 员 关 注 同一 用 户 的 关注 量 都 低 于 50% ， 
从 最 大 的 子 群体 看 ,与 群体 3 和 群体 9 相差 不 大 ,但 是 
这 5 个 群体 含有 一 些 相对 较 大 的 子 群体 , 对 整个 群体 


表 7 群体 内 用 户 及 其 关注 用 户 信 息 
群体 关注 用 户 ( 关 注 量 ) 占 群 体 百 分 比 (% ) 
1 414(27) 113(19) 2(15) 49.1 34.5 27.3 
2 65(24) 77.4 
3 48(32) 41 
4 20(53) 167(45) 39.3 33.3 
5 95(47) 113(32) 252(14) 38.5 26.2 11.5 
6 2(105) 110(74) 9(53) 39.9 28.1 20.2 
7 28(81) 640(56) 26(38) 43.8 30.3 20.5 
8 20(49) 69 
9 27(12) 40 
10 48(18) 9(11) 60 36.7 


27 


图 二 情报 三 作 


第 63 卷 第 22 期 2019 年 11 月 


的 影响 比较 大 ,如 群体 4, 列 举 的 两 个 子 群体 相差 不 
大 ,从 整体 上 看 ,相当 于 将 群体 4 分 成 两 个 子 群 体 , 虽 
然 子 群体 内 部 结构 紧密 ,但 整体 性 却 比较 差 ,另外 ,这 
5 个 群体 中 还 有 一 些 未 列举 的 小 群体 ,因此 ,整体 结构 
相对 比较 松散 。 

通过 上 述 实例 分 析 , 群 体 2.8 .10 在 内 容 的 相似 性 
上 虽然 比较 差 , 但 在 结构 上 相对 比较 紧凑 ,其 他 群体 在 
内 容 上 比较 相似 ,但 结构 上 却 相对 松散 ,从 而 也 进一步 
说 明 , 基 于 网 络 结构 和 用 户 文本 内 容 进行 群体 构建 ,很 
难 在 结构 紧密 度 和 内 容 相似 度 上 同时 取得 最 优 值 。 采 
用 本 文 方法 得 到 的 群体 ,在 精 值 上 提升 较 大 ,更 加 倾向 
于 内 容 的 相似 性 ,因此 ,在 1 000 名 重要 性 用 户 分 析 
中 ,构建 的 10 个 群体 ,有 7 个 群体 在 内 容 上 比较 相似 ， 
虽然 结构 上 相对 比较 松散 ,但 仍然 可 以 将 群体 分 成 稍 
大 从 结构 紧密 的 子 群 体 ,另外 ,有 些 用 户 同时 关注 了 多 
各 用 户 ,在 关注 量 上 存在 重叠, 使 得 整个 群体 在 结构 上 
紧 留 度 低 降 。 


5 _ 群体 画 像 分 析 及 研究 意义 


中 以 群体 6 为 例 ,进一步 分 析 群 体 画像 研究 的 意义 。 
Cj(1) 通过 整体 分 析 , 可 以 进行 用 户 分 析 、 产 品 推 
荐 用 业 发 展 趋势 预测 等 。 经 统计 群体 6 主要 关注 的 


影 .旅行 ,在 “互联 网 + "时 代 , 可 以 对 电影 和 旅游 业 的 
发 展 情 况 进 行 预测 ,如 在 互联 网 + 电影 行业 ,除了 可 以 
网 上 影评 .互联 网 购 票 ,还 可 以 在 移动 终端 上 随时 观看 
影视 作品 ;又 如 ,在 互联 网 + 旅游 行业 ,可 以 在 社交 网 
站 创建 一 些 社区 ,分 享 一 些 游 记 等 ,激发 人 们 的 旅游 兴 
趣 , 可 以 设计 一 些 旅游 攻略 软件 ,帮助 人 们 对 旅游 景 
区 衣食住行 等 快速 做 出 决策 ,还 可 以 通过 携程 等 电 商 
平台 ,帮助 人 们 购买 车 票 、 机 票 以 及 预定 酒店 等 。 

(2) 通 过 内 容 角度 分 析 , 可 以 进行 群体 消息 推送 
或 群体 推荐 .朋友 推荐 等 。 统 计 群 体 6 中 每 个 话题 的 
关注 用 户 ,部 分 结果 见 表 8。 同一 话题 群体 中 ,用 户 的 
关注 内 容 相 同 ,可 以 实现 群体 消息 推送 或 群体 推荐 ,如 
若 有 一 些 新 上 映 的 或 评分 比较 高 的 电影 ,可 以 向 
群体 推荐 ,也 可 以 推送 一 些 有 关 电 影 业 的 消息 ; 当 一 张 
新 专辑 发 布 需要 推广 时 ,可 以 对 音乐 群体 中 的 用 户 进 
行 群体 推荐 ,还 可 以 细 化 音乐 类 型 进行 精准 推荐 。 此 
外 ,通过 协同 过 滤 算 法 可 以 实现 朋友 推荐 .个 性 化 服务 
等 ,如 奉 用 户 21 想 了 解 一 些 心理 学 知识 ,可 以 将 用 户 
554 推荐 给 用 户 21 ,因为 两 者 都 关注 了 电影 .互联 网 话 
题 , 可 能 在 心理 知识 方面 有 相似 的 诉求 ,可 以 将 用 户 
554 了 解 的 心理 学 知识 推荐 给 用 户 21 ; 若 用 户 662 想 
通过 互联 网 创业 ,可 以 将 用 户 662 的 设计 内 容 推荐 给 


ES 
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是 诗 联 网 ,电影 旅行 ,生活 4 个 方面 的 内 容 ,从 电影 、 
旅 生生 活 可 以 看 出 该 群体 用 户 比较 注重 生活 品质 , 关 


有 户 129 ,因为 两 者 都 关注 互联 网 和 经 济 ,说 明 两 者 可 
能 从 事 互 联网 经 济 相关 的 职业 ,并且 用 户 129 还 关注 


2 


沪 响 乐 消遣; 从 互联 网 ,电影 可 以 看 出 群体 中 部 分 用 户 
可 能 从 事 互联 网 影视 行业 。 可 以 向 该 群体 推荐 一 些 间 
上 号 的 影视 作品 ,或 者 推荐 一 些 旅游 景区 ,分享 一 些 旅 
游 或 略 等 。 该 群体 中 互联 网 的 关注 量 最 高 ,其 次 是 电 


了 电子 商务 ,对 电子 商务 领域 有 一 定 的 了 解 ,用户 662 
的 设计 产品 可 以 通过 用 户 129 发 布 于 电子 商务 平台 ， 
实现 网 络 经 济 活 动 。 


表 8 群体 6 每 个 话题 的 关注 用 户 部 分 结果 


关注 话题 


户 


129 


374 472 554 662 699 999 


电子 商务 
互联 网 
经 济 
旅行 
设计 
生活 
心理 学 
音乐 Vv Vv 

(3) 通 过 结构 角度 分 析 , 可 以 进行 用 户 分 析 、 朋 友 
推荐 等 。 经 统计 ,群体 6 中 约 有 40% 的 用 户 关注 用 户 
2 ,统计 用 户 2 及 其 关注 用 户 的 关注 话题 ,其 中 ,大 部 分 
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关注 电影 、 互 联网 生活、 旅行 4 个 方面 ,其 次 是 对 音 
乐 ,经 济 学 、 创 业 、 心 理学 及 运动 与 健康 方面 的 关注 。 
从 以 用 户 2 为 关注 对 象 的 群体 中 可 以 看 出 ,这 些 用 户 
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可 能 更 加 关注 娱乐 消 遗 \ 注 重生 活 品 质 ,以 看 电影 \ 旅 
游 \ 听 音乐 等 为 主 ; 论 其 职业 ,这 些 用 户 可 能 从 事 互 联 
网 影视 ,或 者 是 互联 网 创业 者 ,可 能 对 商业 或 投资 比较 
感 兴趣 ;他 们 中 的 一 些 人 会 关注 一 些 心理 学 知识 ,注意 
工作 压力 的 排 遗 ,调节 心理 压力 等 。 统 计 用 户 2 的 部 
分 关注 用 户 及 关注 话题 见 表 9, 以 用 户 2 为 中 介 , 可 以 
实现 朋友 推荐 ,如 , 若 用 户 92 想 了 解 音乐 方面 的 信息 ， 
可 以 将 用 户 15、404 或 944 推荐 给 用 户 92, 因 为 用 户 2 


与 4 名 用 户 都 具有 关注 关系 ,因此 可 以 通过 用 户 2 使 
有 户 92 与 3 名 用 户 联系 ,其 中 优先 推荐 用 户 15 和 
404 ,因为 用 户 92 与 两 者 的 共同 偏好 较 多 ; 若 用 户 404 
想 要 选择 一 款 汽 车 自驾 旅游 ,可 以 推荐 用 户 426 ,因为 
两 者 都 关注 旅行 话题 , 且 用 户 426 关注 汽车 话题 ,可 能 
对 适合 自驾 出 游 的 汽车 有 所 了 解 ,能 给 予 一 些 建 议 , 因 
为 两 名 用 户 都 关注 用 户 2, 可 以 通过 用 户 2 成 为 好 友 。 
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表 9 用 户 2 的 部 分 关注 用 户 及 关注 话题 


话题 1 话题 2 ”话题 3 oi 
2 15 92 302 359 404 426 532 944 965 
电影 互联 网 旅行 V V 
音乐 V 
旅行 音乐 V 
和 生活 心理 学 V 
创业 设计 V 
旅行 生活 V 
游戏 Android V 
2 创 汽车 V 
生活 音乐 Vv 
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加 本 文 根 据 现 实 网 络 中 用 户 之 间 的 复杂 关系 ,采用 
沈 阐 学 习 的 方法 将 网 络 用 户 进行 空间 向 量 表示 ,从 网 
络 绪 构 和 文本 内 容 两 个 方面 对 网 络 用 户 建 模 并 进行 聚 
尖 % 利 用 模块 度 对 聚 类 群体 强度 进行 衡量 ,通过 不 断交 
代 己 高 来 类 效果 。 为 验证 文中 方法 的 可 行 性 ,采用 中 
英 严 两 种 数据 集 ,与 3 种 不 同类 型 的 聚 类 算法 进行 对 
此 实验 。 实 验 结果 表明 ,本 文 方法 对 中 英文 数据 集 具 
有 普 适 性 ,并 且 该 方法 的 密度 值 比 基于 内 容 的 方法 平 
均 增 加 0. 105 , 炉 值 比 基 于 结构 的 方法 ( 含 基于 结构 和 
内 容 的 方法 ) 平 均 减少 0.955 ,同时 提高 了 群体 紧密 性 
与 群体 相似 度 。 本 文 对 实验 结果 进行 讨论 ,阐述 了 在 
密度 和 烂 值 上 均 未 达到 最 优 的 原因 ,通过 综合 分 析 密 
度 和 信 的 变化 量 , 说 明 本 文 方法 在 信 值 的 效果 更 明显 ， 
构建 的 群体 更 加 侧重 于 相似 度 ,而 群体 紧密 性 略 差 。 
最 后 ,本 文选 择 中 文 数据 集中 的 1 000 名 重要 性 用 户 ， 
从 文本 内 容 相似 性 和 网 络 结构 紧密 性 两 个 角度 进行 验 
证 分 析 , 分 析 表 明 , 基 于 网 络 结构 和 文本 内 容 进行 群体 
构建 ,很 难 在 结构 紧密 度 和 内 容 相似 度 上 同时 取得 最 
优 值 ,但 文中 方法 在 值 上 提升 较 大 ,实例 分 析 中 约 有 
7/10 的 群体 在 内 容 上 比较 相似 。 通 过 对 1 000 名 重要 
性 用 户 进行 分 析 , 阐 明了 群体 画像 研究 对 产品 推荐 , 行 
业 预 测 .个 性 化 服务 消息 推送 ,用户 分 析 以 及 朋友 推 


目前 ,针对 社会 网 络 进行 群体 画像 研究 ,由 于 群体 
构建 文本 特征 单一 ,群体 画像 刻画 比较 泛 化 ,另外 ,对 
群体 结构 的 研究 尚 存在 不 足 , 因 此 ,在 后 期 研究 中 除了 
融入 多 特征 数据 来 分 析 预 测 用 户 的 其 他 属性 标签 外 ， 
还 将 重点 进行 群体 结构 的 研究 。 
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Study for the Construction Method of Group Profile Based on Network Structure and Text Content 
Qiu Yunfei Zhang Weizhu 
Liaoning Technical University, Huludao 125105 

Abstract: | Purpose/significance | In the study of user profile based on social network, aiming at the problems that 
traditional user modeling is difficult to deal with the complex network relationship, group construction is mostly based on 
content, and the group is low similarity or poor tightness, a construction method of group profile based on network struc- 
ture and text content is proposed. [ Method/process | Firstly, using the convolutional neural network method, the net- 
work structure and the text content are combined to represent the network user as a space vector. Secondly, based on the 
k-means algorithm, the modularity calculation method is combined to cluster the space vector. In the crawled Chinese and 
English datasets, a comparative study is conducted. Finally, 1000 important users are selected from the Chinese dataset 
for instance analysis. [ Result/conclusion | The experimental results show that the density value of this method is in- 
creased by 0.105 compared with the content -based method, and the entropy value decreases by 0.955 on average com- 
pared with the structure -based (including structure -based and content-based) method. The instance analysis further illus- 
trates the feasibility of the proposed method. 


Keywords: social network network relationship text content deep learning clustering algorithm user profile 
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